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基于 多 特征 和 深度 神经 网 络 的 维吾尔 文 情感 分 类 


买 买 提 阿 依 甫 ， 吾 守 尔 。 斯 拉 木 ， 艾 斯 卡尔 。 艾 木 都 拉 *， 杨 文忠 ， 帕 丽 且 。 木 合 塔 尔 
(新 疆 大 学 信息 科学 与 工程 学 院 ， 乌 鲁 木 齐 830046) 


摘 要 : 针对 传统 机 器 学 习 的 情感 分 类 方法 存在 长 距离 依赖 问题 ， 深 度 学 习 存 在 忽略 情感 词 库 的 次 端 ， 提 出 了 一 种 
基于 注意 力 机 制 与 双向 长 短 记 忆 网 络 和 卷 积 神经 网 络 模型 相 结合 的 维吾尔 文 情 感 分 类 方法 。 将 多 特征 拼接 向 量 作为 
双向 长 短 记 忆 网 络 的 输入 捕获 文本 上 下 文 信息 ， 使 用 注意 力 机 制 和 卷 积 网 络 获取 文本 隐藏 情感 特征 信息 ， 有 效 增 强 
了 对 文本 情感 语义 的 捕获 能 力 。 实 验 结 果 表 明 ， 该 方法 在 二 分 类 和 五 分 类 情感 数据 集 上 的 Fl 值 相 比 于 机 器 学 习 方 
法 分 别提 高 了 5.59%、7.73%。 

关键 词 : 情感 分 类 ; 双向 长 短 记忆 网 络 ; 卷 积 神经 网 络 ; 注意 力 机 制 ; 维吾尔 语 
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Uyghur sentiment classification based on multi-features and deep neural network 


Maimaitiayifu, Silamu Wushouer, Aimudoula Aisikaer'i, Yang Wenzhong, Muhetaer Palidan 
(College of Information Science & Engineering, Xinjiang University, Urumqi 830046, China) 


Abstract: In order to solve the problem of long-distance dependence in traditional machine learning sentiment classification 
method and the disadvantage of ignoring the emotional lexicon in deep learning, this paper proposes a Uyghur sentiment 
classification method based on attention mechanism combined with bidirectional long-short term memory network and 
convolutional neural network model. The concatenated multi-feature vector is used as the input of the bidirectional long 
short-term memory network to capture the context information, the attention mechanism and convolution network are used 
to capture text hidden emotional feature information, which effectively enhances the capture ability of the text sentiment 
semantics. The experimental results Show that the Fl value of this method on two-category and five-category Uyghur 
sentiment data sets higher than machine learning method 5.59%, 7.73%, respectively. 

Key words: sentiment classification; bidirectional long short-term memory network; convolutional neural network; 
attention mechanism; Uyghur 


引 井 法 三 种 。 基 于 词典 的 方法 主要 是 构建 包括 情感 词 、 情 感 短语 

本 的 情感 词典 ， 其 核心 是 词典 和 规则 ， 通 过 点 互信 息 量 
情感 分 析 (sentiment analysis)， 也 称 为 观点 挖掘 ， 其 目标 (pointwise mutual information, MPI) 等 方法 史 来 计算 词语 的 
在 于 挖掘 文本 中 观点 的 态度 、 倾 向 和 意见 等 主观 感受 033。 人 情感 倾向 ， 从 而 判断 整个 句子 的 情感 极 性 。 该 方法 受 限 于 情 
们 一 般 以 文本 、 音 频 和 图 像 为 载体 ， 借 助 于 一 定 的 表情 进行 感 词典 的 覆盖 度 和 判断 规则 的 质量 ， 而 词典 的 构建 和 设计 一 
表达 情感 中 。 常 见 的 情感 分 析 研 究 主 要 包括 情感 识别 、 情 感 个 合适 的 判断 规则 一 般 都 需要 耗费 很 多 人 力 和 先 验 知识 。 基 


极 性 分 析 和 主题 情感 分 析 外 等 。 于 传统 机 器 学 习 的 方法 通常 利用 朴素 贝 叶 斯 NB)1、 最 大 焙 
随 着 信息 技术 的 发 展 ， 大 量 基 于 维吾尔 语 的 新 闻 网 站 、 (ME) Ml、 支持 向 量 机 “SVM) 中 等 进行 情感 分 类 。 这 些 方 


论坛 、 微 博 等 平台 也 不 断 建立 ， 促 进 了 新 疆 地 区 教育 和 经 济 法 已 被 证 明 是 简单 有 效 的 ， 但 过 度 依赖 背景 知识 和 特征 的 选 
， 提 升 了 新 疆 信息 化 水 平 申 。 与 此 同时 ， 也 有 网 民 发 。 取 ， 只 能 在 有 充足 和 正确 标注 的 训练 语 料 时 才能 够 取得 较 高 
带 有 负面 情感 信息 ， 对 社会 造成 负面 影响 。 通 过 情感 分 析 ”的 分 类 效果 ， 而 这 些 高 质量 语 料 的 标注 和 特征 的 选取 仍然 受 
技术 对 社交 媒介 的 评论 、 熏 论 进行 倾向 性 分 析 ， 能 够 帮助 政 ”到 人 为 因素 影响 ， 需 要 投入 大 量 人 工 成 本 。 这 些 方 法 容易 丢 
府 和 安全 部 门 及 时 了 解 网 民 的 民意 调查 、 和 与 论 倾向 及 动态 。 失 文 本 深层 语义 信息 ， 很 难 有 效 捕获 文本 里 的 情感 信息 。 此 
姑 此 ， 如 何 通过 技术 手段 从 文本 中 捕获 用 户 的 情感 倾向 信息 。 外 ， 此 类 方法 对 语 料 领域 非常 敏感 ， 用 一 个 领域 的 语 料 训练 
是 对 新 疆 社会 稳定 和 长 治 久 安 具 有 很 重要 的 理论 意义 和 应 用 出 来 的 模型 不 一 定 适 应 其 他 领域 。 
介 值 。 近 几 年 来 ， 随 着 深度 神经 网 络 技术 的 快速 发 展 ， 深 度 神 
国内 外 的 学 者 已 经 对 情感 分 析 做 了 大 量 的 研究 ， 并 取得 ”经 网 络 针对 资源 丰富 的 英语 或 汉语 等 语言 在 机 器 翻译 、 语 音 
了 一 些 显著 的 成 果 。 目 前 常见 的 情感 分 析 方 法 主要 分 为 基于 识别、 问答 系统 和 文本 摘要 、 关 系 提取 和 情感 分 析 等 各 种 
词典 的 方法 、 基 于 传统 机 器 学 习 的 方法 和 基于 深度 学 习 的 方 ” NLP 任务 中 取得 了 良好 的 性 能 。 而 由 于 维 寿 尔 语 资源 匮乏 ， 
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录用 定稿 


情感 分 析 研 究 较 少 。 


维吾尔 文 情 感 分 析 工 作 起 步 较 晚 ， 


买 买 提 阿 依 甫 ， 等 ; 基于 多 特征 和 深度 神经 网 络 的 维吾尔 文 情感 分 类 第 37 卷 第 5 期 
种 融合 注意 力 机 制 的 CNN 网 络 。 这 些 方 法 的 提出 验证 了 注 
目前 还 没有 像 英语 或 。 意 力 机 制 和 深度 神经 网 络 结合 的 有 效 性 。 


汉语 一 样 丰富 的 情感 资料 可 供 使 用 。 维 吾 尔 文 情 感 分 析 大 多 


是 基于 情感 词 


络 进 行情 感 分 析 的 研究 较 少 。 
其 于 深度 神经 网 络 的 情感 分 析 方 法 主要 是 采用 词 向 量 对 


和 基于 


传统 机 器 学 习 方法 。 采 


深度 神经 网 


文本 中 的 词语 进行 


衣 不 ， 
在 这 些 语义 表示 的 基础 上 ， 采 


进而 构建 句子 、 篇 章 的 语义 表示 。 
深度 神经 网 络 模型 对 文本 中 


蕴涵 的 情感 信息 进行 


学 习 ， 从 而 实现 对 文本 情感 的 分 析 。 


前 常用 于 情感 分 析 的 神经 网 络 模型 包括 循环 神经 网 络 


(recurrent neural network, RNN) [sl 、 
(convolutional neural network, CNN) 
(long short-term memory, LSTM) 011220、 


卷 积 神经 网 络 
?020、 长 短 记忆 网 络 
门 控 循环 单元 (gated 


recurrent unit, GRU) 等 [13,16]。 


目前 基于 深度 字 


经 网 络 的 情感 分 析 方法 大 多 是 将 文本 看 
做 整体 进行 语义 表示 ， 对 于 情感 词 或 情感 短语 的 体现 没有 突 


出 ， 而 基于 情感 词 


的 情感 分 析 方 法 过 度 依赖 情感 词 ， 没 有 
考虑 文本 整体 的 语义 关系 。 因 此 ， 为 了 解决 上 述 问题 ， 
引入 了 注意 力 机 制 ， 采 用 


本 文 
注意 力 模型 对 维吾尔 文本 、 情 感 词 


进行 编码 ， 提 出 了 


种 基于 注意 力 机 制 的 BiLSTM-CNN 模 


型 的 维吾尔 文 情感 分 析 方 法 。 本 文 主要 贡献 如 下 : 


a) 对 现 有 的 维吾尔 文 情 感 词典 进行 梳理 ， 对 “HowNet” 


和 “NTUSD”* 汉 文 情 感 词 库 进行 翻译 
的 维吾尔 文 情感 词 库 。 


处 理 后 构建 了 较 完整 


b) 本 文 使 / 


音节 特征 向 量 、 词 性 特征 向 


量 和 位 置 特 征 向 


量 ， 有 效 弥 补 了 词 


号 


量 的 不 足 。 


c) 提出 了 一 种 


于 注意 力 机 制 的 深度 维吾尔 文本 情感 


分 类 方法 (ATT-BiLSTM-CNN )， 通 过 注意 力 模型 使 模型 获 


取 更 深层 次 的 情感 特征 信息 ， 有 效 增强 了 对 文本 情感 语义 的 


1 ”相关 工作 
1.1 注意 力 机 制 


捕获 能 力 ， 从 而 提高 了 最 好 的 情感 分 类 效果 。 
d) 对 比 了 本 文 模型 和 基准 模型 在 情感 二 分 类 和 五 分 类 
数据 集 上 的 分 类 效果 ， 验 证 了 本 文 模型 的 有 效 性 。 


注意 力 机 制 模仿 人 脑 关注 事物 的 某 关 键 部 分 分 配 更 多 的 


注意 力 ， 通 过 计算 注意 力 概率 分 布 ， 将 最 关键 的 重要 部 分 更 


加 突出 ， 从 而 对 传统 深度 学 习 模 型 起 到 优化 作用 。2014 年 


Mnih 等 人 09 在 图像 分 类 任务 中 第 一 次 引入 了 注意 力 机 制 ， 


达到 了 较 好 的 分 类 效果 ， 验 证 了 注意 力 机 制 在 图 像 分 类 任务 


中 的 


效 性 。 随后，Bahdanau 等 人 05 借 鉴 注意 力 机 制 在 图 像 


分 类 任务 中 的 应 


j， 将 注意 力 机 制 引 入 到 机 器 翻译 任务 中 ， 


使 注意 力 机 制 成 为 自然 语言 处 理 领 域 的 热点 。 


受 文 献 [18,19] 的 启发 ， 本 文 提 出 了 一 种 基于 注意 力 机 
使 用 BiLSTM 和 CNN 模型 分 别 捕获 
了 文本 历史 、 未 来 上 下 文 信息 和 局 部 信息 ， 并 通过 注意 力 机 
制 使 模型 更 加 关注 文本 中 的 带 情感 信息 的 部 分 ， 从 而 


维吾尔 文 情感 分 类 的 准 


的 BiLSTM-CNN 


1.2 神经 网 络 


ChinaXiv 合 作 期 刊 


模型 ， 


一 由 


出 


确 率 。 


于 深度 神经 网 络 相对 于 传统 的 机 器 学 习 方 法 拥有 
的 自学 习 特征 提取 的 能 力 ， 深 度 学 习 模 型 在 自然 语言 处 理 的 


人 已 经 证 明 CNN 
标注 、 句 子 分 类 等 。 


感 分 类 问题 ， 


各 领域 得 到 了 广泛 应 用 。 


企 潜 在 特征 
2014 年 Kim 等 人 中 使 


后 


提高 J 


亿 秀 


CNN 最 初 由 LeCun 等 人 PH 提 晶 
于 计算 机 视觉 ， 在 计算 机 视觉 任务 中 得 到 了 很 好 的 效果 。 
展示 方面 表现 出 色 。 例 如 词性 


上 用 
前 


| CNN 解决 了 
并 通过 实验 证 明了 CNN 的 分 类 性 能 优 于 递归 


情 


神经 网 络 。Kalchbrenner 等 人 P28 提 出 了 一 种 采用 kmax 池 化 


和 多 层 卷 积 


学 习 模 型 是 序列 模型 ， 即 循 


神经 网 络 (RNN )， 


经 网 络 相 结合 的 新 颖 模型 。 另 一 个 流行 的 深度 
它 通过 隐 


藏 状态 能 够 保留 文本 的 历史 信息 ， 因 此 ， 它 更 好 地 捕获 文本 


中 词语 之 间 的 语义 关系 。 RNN 的 变 体 模型 已 经 成 功 应 用 于 机 


器 翻译 、 文 本 生成 等 任务 。LSTM 可 以 捕获 到 文本 中 的 长 依 


赖 关系 ， 能 够 从 整体 上 理解 评论 信息 的 情感 语义 。 
由 于 CNN 和 LSTM 的 建 模 能 力 是 相 罩 


近 几 年 来 ， 


的 ， 研 究 人 员 一 直 致 力 于 将 它们 结合 起 来 。 


相 成 
前 未 有 见 到 融 


合 注意 力 机 制 和 深度 神经 网 络 的 方法 来 解决 维吾尔 文 情感 分 


类 的 报道 。 
2 方法 


在 本 章 中 将 详细 介绍 维吾尔 文句 子 情感 分 类 的 基于 注意 


力 机 制 的 BiLSTM-CNN 神经 网 络 


(AT-BiLSTM-CNN) 的 


体系 结构 。 本 文 所 提出 的 模型 主要 由 词 向 量 表示 层 、BiLSTM 


层 、 注 意 力 层 、CNN 层 和 情感 计算 层 组 成 。 


作为 下 一 个 网 络 


性 向 量 、 


音节 向 量 和 位 


层 的 输入 ， 其 中 词 向 量 表示 层 
向 量 拼接 的 向 量 


层 的 输入 进行 训练 ，BiLSTM 模型 的 输出 作为 注意 
入 进行 编码 ， 注 意 力 层 的 输出 作为 CNN 
一 步 特征 提出 训练 , 最 后 通过 情感 计算 层 输出 情感 分 类 结 
F 1 所 示 。 


基于 
2.1 


词 向 量 表示 


主意 力 机 制 的 BiLSTM-CNN 网 络 模型 框架 如 图 


每 个 层次 的 输出 
中 词 同 量 、 
作为 BiLSTM 网 络 
层 的 输 
网 络 的 输入 进行 进 


词 


四 
个 。 


层 


本 文 模型 框架 最 底层 是 词 向 量 表示 层 ， 是 整个 框架 的 输 


入 。 假 设 | 


n 个 单词 组 成 的 句子 S={s1，s2，...， 


维吾尔 文句 子 由 


随 着 研究 的 推 


进 ， 各 种 改进 的 带 沪 


类 、 句 法 分 析 、 


带 注 意 力 机 制 模型 在 文本 摘要 生成 、 
情感 分 类 、 短 文本 对 话 等 任务 中 均 取 得 了 良 


文本 分 


好 的 效果 。 
随 着 深度 神经 网 络 和 注意 力 模 型 在 自然 语言 处 理 领域 的 
广泛 应 用 ， 基 于 注意 力 机 制 的 各 种 改进 模型 也 应 运 而 生 ， 因 


为 深度 神经 网 络 能 够 有 效 学 习 到 文本 特征 信息 ， 有 效 解决 特 


征 表示 问题 ， 从 而 提高 了 情感 分 类 等 NLP 任务 的 准确 率 。 


Tang 等 人 09 提 出 了 两 种 带 主体 信息 的 基于 注意 力 机 制 的 
TD-LSTM 和 TC-LSTM 两 种 模型 , 提高 了 情感 分 类 的 准确 率 。 


Luong 等 人 07 提 出 了 一 种 局 部 注意 力 模型 ， 


通过 调整 窗口 长 


度 ， 在 指定 的 窗口 范围 


内 计算 每 个 单词 的 对 其 概率 。Wu 等 


人 03 提出 了 基于 注意 力 机 制 的 CNN-LSTM 模型 ， 在 主题 情 
感 分 析 任 务 中 达到 了 最 好 的 性 能 。 2015 年 Yin 等 人 09 提 出 一 


[R’ @ RY, DR, ORL,], 


2.1.1 词 向 量 
词 向 量 表示 


转换 为 计算 机 能 够 处 理 
的 语义 关系 较 好 映射 到 词 向 量 间 的 位 置 关 系 。 词 向 量 
好 的 计算 特性 ， 即 使 对 词 向 量 进行 简单 数学 运算 后 ， 


接 操 作 。 


其 中 四 是 向 量 # 


(word embedding ) 


的 低 维度 ， 稠 密实 数 向 量 ， 


Sn} ， 每 一 条 
词 向 量 矩 阵 Rw、 词性 向 量 矩 阵 Roy、 音 节 向 
量 和 矩阵 Rszr 和 位 置 向 量 和 矩阵 Rzoc 构成 的 句子 向 量 和 矩阵 Rs 


2 2 基本 思想 是 将 词语 


将 词语 间 


有 很 


以 保留 文本 特征 信息 ， 从 了 


为 了 生成 词 向 量 查询 表 ， 本 文 使 用 对 大 规模 无 标记 语 料 进行 


训练 生成 词 向 量 。 


= 


本 文 实验 中 夭 


的 skip-gram 模型 ，| 


急 然 可 
在 很 大 程度 上 缓解 了 维度 灾难 。 


用 Python 库 中 Gensim 工具 
大 规模 句子 语 料 训 练 出 了 维吾尔 文 词 


向 量 模型 。 对 于 给 定 的 语料库 ， 本 文 将 单词 向 量 存储 在 一 个 


词 向 量 查 询 和 矩阵 


1 -tev 。 其 中 ，| 中 是 给 定 无 标记 维 


吾 尔 文 


录用 定稿 


本 语料库 的 词汇 量 ; dw 是 单词 向 量 的 维 数 。 对 于 句子 5={s1， 


是 阿 依 甫 ， 等 : 基于 多 特征 和 深度 神经 网 络 的 维吾尔 文 情感 分 类 


表 1 维吾尔 语词 性 一 级 标记 集 
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国 
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ch 


“Jw” 或 者 


Fig.1 Bilstm-CNN model based on attention mechanism 
2.1.2 词性 向 量 
词性 特征 包含 了 词语 丰富 的 语义 信 | 
成 词性 向 量 后 ， 

一 步 发 现 语句 


筷 ， 将 词性 特征 转换 
可 以 将 其 作为 神经 网 络 模型 的 输入 ， 能 够 进 


词语 的 结构 联系 以 及 让 
“bg" 等 形容 词 可 以 用 来 表示 情感 强度 ,神经 网 络 模 


型 通过 词性 特 条 


E 可 以 发 现 这 样 的 情感 词语 ， 


中 加 入 了 词性 特征 ， 进 


寻 此 本 文 在 本 文 


步 提 高 了 情感 分 类 i 


前 ， 维 吾 尔 文 没 有 一 个 统 


侍 确 率 。 
生 标 注 集 。 新 疆 


本 次 实验 


成 维度 为 30 的 音节 向 量 。 


中 ， 本 文 使 


ul 


2.1.4 情感 词 位 置 向 量 


52 .9 Sn}, Nn 是 句子 长 度 。 句子 矩阵 表示 为 全 = {X1, X2, ...， Table ] Uyghur first level part of speech tag set 

xn}，Xi 是 单词 %i 从 词 向 量 查询 矩阵 M 中 获取 的 词 向 量 。 序号 名 称 标记 ”序号 名 称 标记 
假设 语料库 由 wi,w2,…,wm 个 单词 组 成 ，Skip-Gram 模型 1 名 词 N 10 语气 词 T 

标 是 使 以 下 函数 最 大 化 : 2 动词 V 11 标点 符号 Y 

1 & 3 形容 词 A 12 附加 成 分 X 

A > log pw,,; |w) (1) a D 人 后 慎 

其 中 : n 是 训练 窗口 大 小 的 参数 。 本 文 实 验 在 词 向 量 模 型 训 5 代词 P 14 拉丁 文 L 
练 中 ， 上 下 文 窗口 大 小 设置 为 $S， 和 迭代 次 数 为 8 词 ， 分 别 生 6 数 词 M 15 Q 
成 了 维度 为 100、200、300 和 400 的 词 向 量 模型 。 对 于 未 登 7 连词 C 16 正面 情感 词 POS 
录 词 ,本 文采 用 均匀 分 布 -0.01,0.01) 来 随机 初始 化 词 向 量 。 8 模拟 词 I 17 负面 情感 词 NEG 

输出 结果 人 情 9 感 疏 词 
不 一 计 2.1.3 音节 向 量 
Softmax 是 维吾尔 语 中 的 否定 词 和 程度 词 对 情感 词 的 极 性 和 强度 有 
EE ~ 很 大 的 影响 ， 否 定 词 会 改变 情感 词 极 性 ， 程 度 词 会 增强 或 前 
2 弱 句 子 情感 强度 。 维 至 尔 语 的 否定 句 以 动词 的 否定 形式 来 表 
由 示 ， 和 否定 句 中 的 动词 作为 谓语 出 现在 名 未 ， 而 句子 中 的 否定 
层 意义 通过 名 末尾 动词 加 否定 后 缀 ， 也 就 是 加 [k，x 等 否定 音 
节 来 表达 。 璧 如 :“uds + k = kui"”。 同 样 ， 维 各 尔 语 中 的 程 
注 度 副词 ， 通 过 名 词 和 形容 词 词尾 加 表示 程度 的 后 级 ， 而 表达 
如 句子 的 副词 程度 ， 构 造 方法 是 名 词 和 形容 词 词尾 加 [Juw， 圳 
等 音节 ， 璧 如 : “2 + 4 = pu。 维吾尔 语 中 表达 否定 
虽 和 程度 副词 的 方法 ， 只 要 通过 动词 、 名 词 和 形容 词 词尾 加 表 
- : 示 否 定 和 程度 的 音节 来 完成 的 。 因 此 ， 在 本 文中 ， 对 给 定 的 
前 向 LSTM 一 | 风 维吾尔 情感 句子 ， 先 分 词 再 分 音节 ， 找 出 最 关键 的 决定 情感 
- ， 2 ' 层 的 最 小 单位 进行 了 更 细 更 深 得 研究 。 最 终 ， 将 音节 向 量 与 词 
位 置 向 量 | ' 句 量 和 词性 向 量 拼接 构成 的 混合 向 量 作为 模型 的 输入 进行 训 
要 站 汪 生 加 练 ， 提 高 了 维吾尔 文 情 感 分 类 的 准确 率 。 维 吾 尔 文 单词 可 以 
ee ' | 王 本 由 多 个 音节 也 可 以 由 一 个 音节 构成 ， 本 文 可 以 用 以 下 形式 : 
| ' 起 单词 ={ 音 节 n， 音 节 n1，...， 音 节 2， 音 节 1} 

语 向 是 | 切 分 单词 音节 时 本 文 使 用 了 新 疆 多 语种 实验 室 开发 的 音 
| | 节 切 分 工具 。 本 次 实验 中 采用 了 从 后 向 前 切 分 的 方式 ， 也 就 
- 和 - 是 从 一 个 单词 的 尾部 音节 依次 提取 音节 。 比 如 ， 给 定 的 单词 
WAxk (oN ye Zr pA BAAT oy) (学 生 们 的 )Jasyssss， 它 的 音节 表示 形式 为 
图 1 基于 注意 力 机 制 的 BiLSTM-CNN 网 络 模型 框架 SY tr, 则 Fsy=[Fsy4; Fey3; Fsy2; Fsyu], 其 


中 ; Fsy= [总 ] » Fsyp=[2 ]， sy3=[ 全 5 syl4 一 [35 ja 


均匀 分 布 U(-0.01,0.01) 来 随机 生 


与 分 析 ， 发 现 


本 文 对 实验 室 提 供 的 维吾尔 文 情感 语 料 
有 情感 的 感叹 词 和 模拟 词 一 般 昌 


进行 详细 统计 


H 现 在 句 首 ， 


维吾尔 语 中 感叹 词 和 模拟 词 一 般 出 现在 句 首 表 示 句 子 的 情感 


强劲 ， 后 用 过 


规范 的 词 | 


语种 信息 技术 实验 室 等 各 研究 单位 都 到 
。 新 疆 多 语种 信息 技术 实验 室 手 工 建立 了 包含 120 万 个 
FP 包 括 一 级 词性 标注 集 (15 个 标签 )( 表 


EY 了 自己 的 词性 标 


标签 ) 


多 语 

注 集 

单词 的 词性 标注 集 , 其 中 
1)、 二 级 词性 标注 


E 集 (71 个 标签 )、 三 级 词性 标注 集 (51 个 


为 了 更 好 地 学 习 句 子 中 情感 词 的 1 
一 级 词性 标注 集 的 基础 上 增加 了 两 个 词性 
新 标注 为 “POS’ 
使 情感 词 的 词性 更 加 突出 。 实 验 使 用 
示 词 性 向 量 ( 以 下 vpos 表示 词性 特征 
量 和 矩阵 ), 然后 与 词 向 量 、 音 节 向 量 和 位 置 向 量 拼接 生成 混合 
句 量 作为 BiLSTM 模型 的 输入 ， 


ef 


标签、 负面 


青 感 特征 信息 ， 本 文 在 


I 正面 情感 词 重 


情感 词 重新 标注 为 “NEG” 标 签 ， 
立 的 one-hot 向 量 


向 量 ， Rpos 表示 词性 向 


提高 了 | 


青 感 分 类 的 准确 率 。 


号 隔 开 ， 感 情 强烈 时 ， 可 月 
在 句 末 的 情感 词 表示 肯定 或 否定 ,情感 词 
在 句 中 和 人 句 末 倒数 第 二 个 位 


词 和 程度 副词 


。 维 吾 尔 文 情 


所 示 。 


感 词 在 句子 中 的 位 


表 2 维吾尔 文 情感 词 有 有 


感叹 号 表示 。 出 现 
的 词性 一 般 为 动词 。 
出 现 的 词性 情感 词 一 般 为 形容 


示例 如 表 2 


E 句 子 中 的 位 置 示 


Table 2 Examples of location of Uyghur sentimental words in 


sentences 
序号 示例 翻译 情感 词 位 置 
1 3 歌舞 太 热 闸 了 句 末 
2 2 DBS 哇哇 ， 看 这 些 花 儿 名 
3 六 6 这 aoub be sw 要 是 您 帮 有 我 就 好 了 句 末 
4 六 各 vod Sb us 这 个 地 方太 美丽 了 句 末 倒数 第 二 
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为 了 提高 维吾尔 情感 分 类 的 准确 率 ， 本 文 探 索 获 取 更 多 


的 情感 信息 作为 特征 ， 从 而 提高 分 类 准确 率 。 对 实验 室 提供 


的 6 万 多 条 维吾尔 文 情感 句子 中 的 情感 词 的 位 置 进行 了 统计 ， 


大 部 分 情感 词 出 现在 句 首 和 句 末 〈 表 3)。 


表 3 维吾尔 情感 词 在 居中 的 位 置 统 讨 


Table 3 Statistics of locations of Uygur sentimental words in sentence 


序号 位 置 百分比 (%) 
1 句 首 21 
句 末 45.7 
3 句 末 倒数 第 二 位 置 19 
4 句 中 14.3 


在 训练 模型 前 ， 本 文 对 句子 中 的 每 个 单词 使 用 one-hot 


表示 进行 向 量化 ， 如 果 当 前 单词 是 情感 词 ， 对 应 的 位 置 设 为 


1， 和 否则 为 0。 本文 将 情感 语料库 中 最 长 的 句子 长 度 23 作为 


位 置 向 量 维 度 (以 下 用 wec 来 表示 位 置 向 量 ，Rroc 表示 由 位 置 


向 量 组 成 的 矩阵 )。 最 后 ， 将 词 向 量 、 词 性 向 量 、 音 节 向 量 和 
位 置 向 量 拼接 生成 的 混合 向 量 作为 模型 的 输入 进行 训练 。 


2.2 BiLSTM 网 络 层 
2.2.1 长 短期 记忆 单元 LSTM 


循环 神经 网 络 (recurrent neural networks, RNN)U0U 作 为 深 
度 学 习 领 域 比较 常用 的 序列 学 习 方法 ， 通 过 循环 递归 的 结构 


使 得 自身 具有 一 定 的 记忆 和 能力， 理论 上 可 以 获取 任意 长 度 历 


史 信 息 ， 然 而 在 实际 应 用 中 经 常 出 现 梯度 消失 或 梯度 爆炸 问 


题 ， 从 而 无 法 学 习 输 入 序列 中 距离 较 远 的 逻辑 关系 。 


为 了 解决 RNN 模型 的 不 足 ，Hochreiter 等 人 Ro 提出 了 
LSTM 模型 ， 蔡 换 RNN 模型 中 的 隐 含 层 ， 从 而 避免 了 RNN 
模型 的 梯度 消失 问题 。 一 个 LSTM 模型 包含 输入 门 志 输出 


门 oe、 遗忘 门 和 记忆 单元 c， 其 中 记忆 单元 是 核心 部 分 ， 


如 图 2 所 示 。 对 于 一 个 由 个 单词 构成 的 维 


吾 尔 文句 子 的 词 


向 量 序列 S={xi, xz， .…, Xn} ,Xt 为 LSTM 单元 在 第 ! 步 的 输入 ， 


表示 输入 序列 中 单词 对 应 的 混合 向 量 。 


图 2 LSTM 单元 结构 
Fig.2 Structure ofLSTM unit 


LSTM 单元 中 的 三 个 门 和 记忆 单元 的 计算 如 下 : 


X=[] 


f=o(W,:X+b;) 


i =o(W.:X+b,) 
0,=o(W,:X+b,) 
c=fOc +i Otanh(W.:X+b.) 
h =0, Otanh(c,) 


在 上 述 计算 公式 中 : Wi,W,W, eR” 表示 权 习 


GO) 


G) 
(4) 
(5) 
(6) 
(7) 


E 阵 ; 


an 
ey 
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5b.b.b, eR" 表示 偏 置 5 是 非 线性 激活 函数 ; m=100 是 LSTM 


网 络 的 单元 数量 ， 〇 表示 元 素 逐 个 点 乘积 ; xt 包含 LSTM 单 
元 的 输入 向 量 ; heR” 是 隐藏 层 向 量 。 对 于 一 个 给 定 的 句子 
S={ xl，x2，.…，xn }， 每 个 单词 xi 将 映射 到 对 应 的 词 向 量 


eR” ， 每 个 单词 的 词性 映射 到 词性 向 量 veR” ,单词 的 音 


节 向 量 映射 到 音节 向 量 vww eR*, 提取 当前 单词 的 音节 向 量 根 


据 3.1.3 节 中 介绍 的 音节 切 分 方法 ,单词 的 位 置 向 量 映射 到 
位 置 向 量 W%.eR” (上 述 中 dw=300、dp=17、ds=30、dl=23 
分 别 为 词 向 量 、 词 性 向 量 、 音 节 向 量 和 位 置 向 量 的 维度 ， 因 
此 在 神经 网 络 的 输入 层 混 合 词 向 量 的 维度 为 
d=dw+dpt+ds*n+dl, 其 中 n 是 从 单词 提取 到 的 音节 特征 数量 ， 
训练 前 人 工 设 定 )， 最 后 拼接 这 些 向 量 后 生成 句子 向 量 矩 阵 ， 
即 


ee 


1 1 1 1 本 
wD Vpos @ Vsy Ovi 


公国 , 四 计 四 这 
[on hl [RI OR ORV ORL]=I." ”9) 


Ww Dv DBD vs DV] 

2.2.2 双向 长 短期 记忆 网 络 
LSTM 能 够 捕获 输入 序列 的 长 期 历史 信息 ， 但 无 法 捕获 
未 来 信息 。 双 向 长 短期 记忆 网 络 (BiLSTM) 是 由 向 前 LSTM 
网 络 与 向 后 LSTM 网 络 又 加 构成 的 网 络 , 它 使 用 向 前 和 向 后 
LSTM 网 络 能 够 分 别 获取 历史 信息 和 未 来 信息 ， 从 而 获取 更 


多 上 下 文 依赖 关系 。 向 前 和 向 后 LSTM 的 两 个 隐藏 状态 及 和 


及 分 别 是 关于 过 去 和 未 来 的 信息 。 


它们 拼接 生成 的 向 量 


站 


提供 了 完整 的 上 下 文 历史 与 未 来 信息 ， 向 前 向 后 的 


输出 最 后 是 一 个 融合 的 结果 ht。 句 子 中 每 个 单词 都 以 词 向 量 
的 形式 骨 入 网 络 , 通 过 使 用 BiLSTM 对 维吾尔 文本 进行 编码 ， 
实现 前 向 的 语义 信息 和 后 向 的 语义 信息 以 相同 的 地 位 被 考虑 ， 
从 而 获取 文本 中 的 情感 信息 。 
2.3 注意 力 层 

众所周知 ， 根 据 句 子 的 不 同 部 分 ， 句 子 的 情感 通常 会 有 
司 。 句 子 中 的 某 些 情感 词 或 短语 对 于 句子 的 情感 有 决定 
生 作用 ， 而 其 他 单词 则 无 关 紧 要 。 因 此 ， 本 文 引 入 了 注意 力 
机 制 来 关注 这 些 重 要 词语 ， 并 将 它们 的 表示 形式 转换 为 句子 
可 量 。 实际 记 ， 注意 力 机 制 是 计算 句子 中 的 上 文 向 量 。 
本 文 模型 中 ， 将 由 词 向 量 、 词 性 向 量 、 音 节 向 量 和 位 置 
句 量 拼接 构成 的 词 向 量 作为 BiLSTM 网 络 的 输入 进行 编码 ， 
将 BiLSTM 网 络 在 每 个 时 间 步 又 产生 的 一 个 隐藏 状态 向 量 h 
输入 到 注意 力 模型 中 ， 采 用 注意 力 模型 对 维吾尔 文句 子 进行 
编码 。 注 意 力 模型 首先 使 用 单 层 感知 器 (MLP) 对 输入 隐藏 
状态 有 进行 加 权 ， 从 而 为 输入 的 句子 构造 一 个 上 下 文 相 关 的 
句子 文本 表示 向 量 x， 如 式 (9) 所 示 。 

n=0h (9) 

其 中 : 为 BiLSTM 网 络 输出 的 隐藏 状 态 向 量 h 的 注意 力 权 


训 


重 ， 它 与 每 一 个 时 间 步 又 的 输入 状态 和 一 个 随机 初始 化 的 上 
下 文 向 量 ww 有 关 ，w% 可 以 通过 式 (10) (11) 计算 得 到 。 

2 2 xD mm) 

a Dexpmim,) (10) 


m, =tanh(W,h, +b,,) (11) 
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式 〈11) 中 ; _W, 为 模型 中 的 权重 ， bw 为 模型 中 偏 置 ， 的 具有 情感 倾向 的 单词 或 短语 。 
它们 与 mw 一 起 作为 模型 的 参数 ， 通 过 不 断 训练 学 习 得 到 。 前 尚未 有 公开 的 维吾尔 文 情感 词 库 。 对 于 资源 匮乏 的 
通过 以 上 的 注意 力 模型 ， 可 以 为 模型 的 输入 构造 一 个 定 长 的 语言 ， 有 研究 通过 尝试 将 资源 丰富 的 语言 的 情感 词 库 翻译 成 
上 下 文 相 关 的 文本 表示 向 量 >， 此 向 量 中 的 信息 包含 各 个 输 ” 资源 稀缺 的 语言 ， 并 取得 较 好 的 分 类 效果 。 因 此 ， 本 文 首先 
入 状态 的 重要 程度 ， 使 模型 更 加 关注 文本 里 带 情感 信息 的 情 使 用 新 疆 信 息 技术 实验 室 开发 的 汉 维 翻译 接口 对 目前 使 用 率 
感 词 或 短语 ， 从 而 提高 高 维吾尔 文 情 感 分 类 的 准确 率 。 通 过 这 ”比较 普遍 的 “HowNet” 汉 文 情感 分 析 词 语 表 中 的 正面 情感 、 负 
样 的 文本 表示 , 可 以 为 特征 序列 分 配 不 同 的 注意 权重 。 最 后 ， 下 情感 词语 、 正 面 评 价 词 语 和 负面 评价 词语 四 个 情感 词语 表 
可 以 更 容易 地 识别 诸如 情感 词 之 类 的 重要 信息 。 以 及 ”大 学 创建 的 “NTUSD” 汉 文 情感 词典 进行 翻译 ; 然后 
2.4 ”CNN 网 络 层 人 工 对 齐 进 行 整理 ， 去 除 部 分 翻译 后 失去 情感 倾向 的 单词 和 
卷 积 神经 网 络 (convolutional neural network，CNN)[9.1020 短语 ; 除 此 之 外 ， 本 文人 工 收集 情感 句子 中 的 情感 词 ， 最 后 
能 够 捕获 文本 中 的 局 部 特征 信息 ， 在 句子 级 别 的 情感 分 类 任 。” 构建 了 包括 5 643 个 词汇 的 情感 词典 (UySentiDict)， 其 中 正 
务 中 表现 优秀 四。 因此 ， 在 本 文中 本 文 使 用 CNN 网 络 作为 而 情感 词语 有 2 411 个 ， 负 面 情感 词语 有 3 232 个 。 
BiLSTM 模型 的 补充 ， 实 现 了 带 注意 力 机 制 的 BiLSTM-CNN 本 文 实验 中 将 句子 中 的 情感 词 转换 为 词 向 量 ， 并 与 注意 
混合 模型 (简称 为 AT-BiLSTM-CNN )。 力 层 输出 的 隐藏 状态 向 量 拼 接生 成 的 向 量 作为 CNN 网 络 的 
卷 积 神经 网 络 由 输入 层 、 卷 积 层 、 池 化 层 和 全 连接 层 组 。 输入 ， 从 而 起 高 了 情感 分 类 准确 率 。 
成 。 本 次 实验 中 将 注意 力 模型 输出 的 x 与 情感 词 向 量 ve 拼接 3.2 情感 分 析 数 据 集 
的 向 量 和 矩阵 产 作 为 输入 进行 训练 。 即 为 了 构建 维吾尔 文句 子 级 情感 语 料 ， 本 文 实验 选取 天 山 
r=[rt ®B ve] (12) ”网 等 维 文 网 站 上 公开 发 布 的 文章 和 评论 信息 。 本 文 利用 实验 
卷 积 层 使 用 不 同 的 录 波 器 对 输入 向 量 进行 卷 积 操作 ， 从 ” 室 开 发 的 网 络 疏 虫 工具 下 载 网 页 ， 经 过 去 重 、 去 噪 等 操作 得 
而 获取 输入 向 量 中 的 局 部 特征 。 其 计算 公式 如 下 : 选 出 包含 情感 倾向 的 评论 信息 。 对 收集 好 的 语 料 进行 分 句 ， 
aD) = f OW ori 45) (13) 然后 人 工 对 其 进行 分 类 ， 构建 了 一 分 类 (UySenti2Data)， 如 
表 4 所 示 。 
. 到 本 表 4 维吾尔 二 分 类 数据 集 
中 尺 ws 表示 输入 向 量 的 第 i 行 至 ith-1 行 抽取 的 局 部 特 Table 4 Uyghur two-group sentimental data set 
征 和 矩阵 ;xy(D) 是 某 个 卷 积 核 在 位 置 ;的 卷 积 输 出 ; 丈 是 滤波 器 ; 数据 正面 句子 负面 句子 总 计 
b 是 卷 积 偏 置 项 ; 帮 ) 是 非 线 性 卷 积 核 函数 ， 本 文 用 relu 作为 训练 集 1.2 万 1.2 万 2.4 万 
激活 函数 。 发 集 0.15 万 0.15 万 0.3 万 
之 后 ， 最 大 池 化 层 对 向 量 x 中 所 有 x(D 求 最 大 值 以 获取 测试 集 0.1 万 0.1 万 0.2 万 
其 中 最 显著 的 特征 值 ， 计 算 公式 如 下 : 总 计 1.45 万 1.45 万 2.9 万 
6 = max{u()} (14) 除了 维吾尔 文 情感 二 分 类 〈 正 面 、 负 面 ) 语料库 外 ， 本 
文 还 构建 了 情感 五 分 类 〈 中 性 、 高 兴 、 生 气 、 人 惊讶 、 难 过 ) 
其 中 : 7 了 表示 第 j 个 卷 积 核 。 本 文 实验 中 使 用 了 不 同 尺寸 的 卷 语料库 (UySenti5Data)， 如 表 5 所 示 。 
积 核 ， 分 别 为 h=3，h=4，h=5。 对 于 有 7 个 卷 积 核 的 窗口 采 表 5 维吾尔 五 分 类 数据 集 
样 得 到 的 特征 信息 如 式 〈15$) 所 示 。 下 采样 层 输出 的 特征 向 Table 5 Uyghur five-group sentimental data set 
量 作为 全 连接 层 的 输入 。 数据 中 性 高 兴 生气 惊讶 难过 
C=[6,6,...,67] (15) 训练 集 1.5 万 1.2 万 1.2 万 0.8 万 0.8 万 
2.5 情感 计算 层 开发 集 0.15 万 0.1 万 0.1 万 0.1 万 0.1 万 
本 文中 使 用 sofimax 函数 245 作为 情感 分 类 器 ， 将 全 连 测试 信 和 er Be 作坊 人 
接 层 输出 的 特征 表示 6 作为 sofimax 函数 的 输出 情感 极 性 分 i 1 请 je 1 
0 为 了 验证 本 文 混合 模型 的 有 效 性 ， 在 情感 二 分 类 数据 集 
$= softrmax(Wi*C +b;) (16) ”的 基础 上 ， 构 建 了 情感 五 分 类 数据 集 ， 表 6 中 给 出 了 每 个 类 
中 ，。 了 是 模型 预测 的 文本 情感 类 别 ，W、 九 分别 是 全 连接 。 和 人 全 
册 吾 尔 五 分 类 数据 举例 说 明 
层 权重 矩阵 和 偏 置 。 Table 6 Examples of Uyghur five- timental data set 
xamples of Uyghur five-group sentimental data se 
2 类 型 维 文 情 感 语句 举例 翻译 
本 文 使 用 反 向 传播 算法 来 训练 和 更 新 模型 ， 通 过 最 小 化 = a 一 -一 
交叉 箭 来 优化 模型 cz。 交叉 和 损 失 函 数 的 计算 公式 如 下 ; a ER 
二 者 高 兴 De 3 eo 0 本 文 热爱 祖国 ! 
loss = 2 ya + Alo (17) 生气 ee 你 怎么 不 听话 ? 
其 中 : 了 是 训练 数据 集 ; C 为 情感 类 别 数 ; y 为 文本 实际 情感 停放 ee 哇 ， 真 的 发 生 了 奇迹 
类 别 ; 4 为 正则 项 , 是 损失 函数 的 惩罚 项 ; 9 是 设置 的 参数 。 难过 ne 哎 ， 很 遗憾 ， 没 赶 上 医院 
有 3.3 评价 指标 
3 ”实验 准备 文本 情感 分 类 作为 一 种 文本 分 类 任务 ， 为 了 评 信 本 并 
3.1 情感 词 库 的 构建 型 的 情感 分 类 性 能 ， 本 文 使 用 准确 率 (precision)、 可 率 
情感 词 库 包括 情感 词 、 情 | 跟 情感 词 搭配 的 否定 (recall) 和 下 值 作为 评价 标准 。 计 算 ' 0 召 
词 、 副 词 、 形 容 词 、 感 叹 词 、 语 气 词 以 及 一 些 习 惯用 语 构 成 可 率 和 Fl 值 公式 如 下 : 
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其 中 : TP (true positive) 是 将 了 


3.4 数据 预 处 理 


于 从 网 上 


下 载 的 文本 语 料 不 是 规范 正式 ， 这 
语 料 通常 包含 URL、 邮 箱 、 各 种 标点 符号 、 数 字 、/ 


买 买 提 阿 依 甫 ， 等 : 


P=- 
TP+FP 


R-_ 了 2 
TP+FN 


Fl= 2 2*R 
P+R 


E 类 预测 为 正 类 的 句子 数 ; FN d) 支持 向 量 机 (support vector machine，SVM) 模型 : 
(false negative 是 将 正 类 预测 为 负 类 的 句子 数 ，FP 是 将 负 SVM 是 最 常用 的 传统 机 器 学 习 情 感 分 类 方法 ， 通 常 采用 
类 预测 为 正 类 的 句子 数 ;TN 是 将 负 类 预测 为 负 类 的 
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感 词 就 分 为 正面 ` 如 果 包 含 负面 情 感 词 就 分 为 负面 情感 句子 。 

b) 多 项 式 朴 素 贝 叶 斯 (multinomial naive Bayes, MNB): 

是 一 个 典型 的 传统 机 器 学 习 方法 之 一 ， 在 许多 文本 分 类 和 情 

(18) ” 感 分 类 任务 中 得 到 了 广泛 应 用 。 
c) CNN 模型 : 采用 单 通道 和 多 通道 卷 积 神经 网 络 对 维 吾 

尔 文 句子 的 词 向 量 表示 进行 学 习 ， 通 过 卷 积 和 最 大 池 化 操作 
捕获 维 噩 尔 文句 子 的 局 部 特征 实现 文本 的 情感 分 类 。 


bg 


| 


甸子 数 。 n-gram 作为 特征 进行 分 类 ， 本 次 实验 中 本 文 使 用 unigram、 
bigram 和 trigram 作为 SVM 的 特征 进行 分 类 。 
种 非 正 式 e) 长 短 记忆 网 络 (LSTM): 使 用 标准 的 单 向 LSTM 网 


而 这 些 非 正式 文本 给 情感 分 类 带 来 了 极 大 挑战 。 


为 了 去 除 噪声 干扰 ， 本 文 预先 对 维吾尔 文 情 感 


进行 预 处 理 。 其 具体 规则 如 下 : 


a) 所 有 数字 都 被 蔡 换 为 “0” 处 理 


进行 删除 。 


b) 如 果 人 句子 旦 


c) 删除 除了 名 
以 移 除 任何 可 能 影 


存在 网 址 和 电子 邮件 字符 串 , 则 


j 户 名 等 ， 络 对 维吾尔 文句 子 进行 编码 表示 映射 到 可 变 长 目标 序列 。 


f 双向 长 短 记忆 网 络 (BiLSTM) :不 带 注意 力 机 制 的 

文本 语 料 。” BILSTM 模型 对 维吾尔 文句 子 进行 情感 分 类 。 
g) BiLSTM-CNN (BiLSTM ) :不 带 注意 力 机 制 的 

BiLSTM-CNN 混合 模型 对 维吾尔 文句 子 进行 情感 分 类 。 

本 文 对 其 h) 基于 注意 力 机 制 的 BiLSTM-CNN (ATT-BiRNN-CNN) 
模型 : 本 文 提出 的 引入 注意 力 机 制 的 BiLSTM-CNN 混合 模 


响 本 文 情 感 分 类 性 能 的 噪声 。 


号 、 豆 号、 感叹 号 、 问 号 以 外 的 标 


d) 如 果 人 句子 中 


存在 汉文 单词 则 用 实验 室 提 供 


译 接口 对 齐 进行 番 


译 ， 用 翻译 结果 替换 源 汉文 单词 


e) 如 果 情 感 句子 中 出 现 连 续 的 感叹 号 、 问 号 、 


[| 


他 字符 ， 则 只 


为 了 达到 ] 


田 


3.5 实验 参数 设置 
理想 的 情感 分 类 效果 ， 本 文 进行 了 反 


个 对 应 的 符号 或 字符 。 


点 符号 ， 型 。 

的 汉 维 翻 4 ”实验 结果 及 分 析 

8 为 了 验证 本 文 提出 的 ATT-BiRNN-CNN 模型 在 维吾尔 

句号 或 其 ” 文 情 感 分 类 任务 上 的 有 效 性 ， 在 实验 室 构 建 的 二 分 类 和 五 分 
类 情感 数据 集 上 进行 对 比 实验 。 两 个 情感 分 类 数据 集中 分 配 
的 训练 数据 集 、 开 发 集 和 测试 集 的 具体 数据 量 如 表 4、5 所 示 。 

复 实验 ， 本 文 实验 中 选取 了 基于 词典 的 分 类 方法 、 典 型 的 传统 机 


豆 
流 


调节 了 模型 的 超 参 数 。 通 过 交 最 小 化 交叉 焙 证 来 选 


数 。 单 词 向 量 维度 设置 为 300,LSTM 单元 的 大 小 设 


择 实验 参 。 ”器 学 习 和 简单 神经 网 络 模型 与 本 文 提出 的 模型 进行 了 对 比 。 
为 100。 4.1 神经 网 络 方法 与 基准 方法 对 比 实验 


dropout 设置 为 0.5， 以 防止 过 度 拟 合 。 使 用 样本 数量 为 了 对 比 神经 网 络 方法 与 词典 方法 和 传统 机 器 学 习 方 法 ， 
(mini-batch) 为 128 和 Adam 优 化 算法 来 训练 模型 ,在 实验 中 ， 第 一 组 实验 在 UySenti2Data 和 UySenti5Data 两 种 情感 分 类 数 


模型 训练 的 迭代 的 次 数 为 19 时 达到 


节 如 表 7 所 示 。 


表 7 神经 网 络 参 数 设置 


上 了 最 好 的 准确 率 ,更 多 细 ， 据 集 上 进行 了 实验 。 为 了 公平 对 比 各 方法 的 分 类 效果 ， 除 了 


词典 方法 外 ， 其 他 机 器 学 习 方 法 和 神经 网 络 方法 都 只 使 用 本 
文 预先 训练 出 来 的 维度 为 300 的 词 向 量 作 为 输入 进行 实验 ， 


Table7 Neural network parameter setting 如 表 8 所 示 。 
网 络 层 超 参 数 取 值 表 8 基准 模型 对 比 实验 结果 
LST™ LSTM 单元 数 100 Table 8 Benchmark model comparison experiment results 
ey 滤波 器 窗口 大 小 3,4,5 模型 情感 2 分 类 情感 5 分 类 
滤波 器 数量 100 准确 率 /% 召回 率 /% Fl 值 准确 率 召回 率 Fl 值 
词 向 量 300 词典 方法 56.23 61.89 54.44 44.5 46.72 43.07 
音节 向 量 30 MNB 62.54 61.34 61.93 52.2 50.86 51.52 
文本 表示 层 
词性 向 量 17 SVM-unigram 77.4 78.95 78.12 64.5 63.78 63.14 
位 置 向 量 23 SVM-bigram 84.23 82.87 83.54 72.71 71.83 72.27 
注意 力 层 注意 力 隐 藏 层 数量 100 SVM-trigram 81.5 80.24 80.87 71.65 69.24 70.42 
dropout 0.5 LSTM 72.59 71.2 71.89 59.73 58.48 59.1 
优化 函数 Adam CNN 83.65 82.64 83.14 74.51 74.24 74.37 
其 他 参数 样本 数量 (batch size) 32 BiLSTM 74.23 73.34 73.78 68.82 67.32 68.06 
初始 学 习 率 (learning rate) 0.01 BiLSTM-CNN 85.47 84.57 85.02 74.57 73.29 73.92 
网 络 迭 代 次 数 (epoch) 19 AIT-BiLSTM-CNN 86.28 85.89 86.08 76.17 75.83 76.0 


3.6 实验 对 比 模型 


从 表 8 可 以 看 出 ， 本 组 实验 中 对 词典 、MNB、SVM 机 器 


本 文 使 用 不 同 的 情感 分 类 方法 与 本 文 提出 的 者 
和 注意 力 机 制 的 BiLSTM-CNN 混合 模型 进行 对 比 


于 多 特征 学 习 方 法 ， 以 及 LSTM、CNN、BiLSTM、BiLSTM-CNN、 


文 提 出 的 方法 的 


肥效 性 ， 并 使 用 词 向 量 、 词 性 向 量 


， 验 证 本 ”ATT-BiLSTM-CNN 模型 进行 了 分 类 , 实验 结果 表明 ,本文 提 


、 音 节 向 出 的 ATT-BiLSTM-CNN 模型 的 二 分 类 、 五 分 类 情感 F1 值 均 


量 和 位 置 向 量 特征 


E 提 高 了 本 文 方法 的 情感 分 类 准确 


a) 基于 情感 词典 的 方法 (SentiDict) :根据 实验 


情感 词典 来 对 维 


zl 


率 。 于 其 他 基准 方法 。 
室 构建 的 在 实验 过 程 发 现 ， 针 对 词典 方法 ， 如 果 情 感 词 不 在 情感 
含 正 面 情 。 词典 中 就 无 法 对 句子 进行 正确 分 类 。MNB 需要 大 量 的 语 料 


EE 在 尔 文 进行 情感 分 类 ， 如 果 人 句子 包 
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才能 达到 较 好 的 分 类 效果 ，SVM 方法 具有 


买 买 提问 


在 SVM 几 个 模型 中 SVM- bigram 模型 的 表现 最 佳 。 单 独 深 


度 神经 网 络 模型 中 CNN 模型 的 分 类 性 能 较 好 ， 


[ 依 甫 ， 等 : 基于 多 特征 和 深度 神经 网 络 的 维吾尔 文 情感 分 类 


较 强 的 泛 化 能 


ChinaXiv 合 作 期 刊 


拿 别人 的 东西 在 这 名 中 “We 外 是 个 兼 类 词 (动词 : 不 要 


名 词 : 苹果 )， 在 本 句 中 是 动词 ， 除 此 之 外 ， 对 “We” 进 


已 可 以 获取 


情感 词 的 局 部 特征 来 提高 分 类 效果 。 混 合 模型 中 本 文 提出 的 
混合 模型 的 分 类 效果 最 佳 。 表 9 是 各 模型 对 同一 个 语句 
SW jy oa syast ( 未 经 他 人 允许 不 要 拿 别人 


的 东西 ) 的 情感 五 分 类 结果 . 
表 9 各 模型 对 同一 个 实例 的 分 类 结 
Table9 Sentiment classification results of each model for same 
instance 

模型 情感 2 分 类 情感 5 分 类 
词典 方法 正面 中 性 
MNB 正面 中 性 
SVM-unigram 正面 中 性 
SVM-bigram 负面 生气 
SVM-trigram 正 下 难过 
LSTM 正面 难过 
CNN 负面 生气 
BiLSTM 负面 惊讶 
BiLSTM-CNN 负面 生气 
ATT-BiLSTM-CNN 负面 生气 


从 表 9 中 可 以 看 出 ，SVM-bigram、CNN、BiLSTM-CNN 


模型 和 ATT-BiLSTM-CNN 对 实 作 


果 是 正确 的 。 
4.2 多 特征 对 情感 分 类 的 影响 


1 的 情感 二 分 类 和 五 分 类 结 


为 了 验证 词性 特征 、 音 节 特 


和 


有 效 性 ， 


本 组 实验 中 采用 不 同 的 特 和 
组 实验 中 依次 将 词性 向 量 (Fpos)、 音 


量 (Vioc) 添加 到 词 向 量 (Fw) # 


叫 | 


输入 进行 训练 ， 


接 和 


E 和 位 置 特征 对 情感 分 类 的 
E 组 合作 为 模型 输入 。 本 
节 向 量 (Fsy) 和 位 置 向 
成 的 混合 向 量 (f= Fpos 


四 Fw @Fsy® Floc) 作为 模型 输入 进行 训练 。 


性 向 量 与 词 向 量 拼接 生成 的 向 量 


首先 ， 本 文 将 词 


(F= Fpos 四 Fw) 作为 模型 的 


其 二 分 类 和 五 分 类 F1 值 分 别 
0.96%。 其 次 ， 在 词 向 量 和 词性 向 量 的 基础 


提升 了 0.26%、 
上 增加 了 音节 向 


量 ， 其 中 Fsyu 是 单词 最 后 
节 ， Fsyl3 是 单词 最 后 三 个 音节 ， 


个 音 


取 单 词 最 后 4 个 音节 作为 特征 


Fsya 作为 特征 时 二 分 类 和 五 分 类 淮 


E 进 


节 ，Fsvo 是 单词 最 后 两 个 音 


他 依 此 类 
不 够 的 单词 进行 补 0 的 方式 进 处 到 


E， 对 于 音节 数 


E。 本 次 实验 中 尝试 最 多 截 
行 测试 。 从 表 8 可 以 看 出 ， 


E 确 率 均 得 至 


分 别提 升 了 1.57%、2.19%。 最 后 , 增加 了 位 置 向 量 作为 词 向 


4.0%。 本 组 实验 结果 如 表 10 所 示 。 


表 10 多 特 和 


E 对 比 实验 


量 的 补充 进行 训练 , 二 分 类 和 五 分 类 Fl 值 分 别提 升 了 3.05%、 


Table 10 Benchmark model comparison experiment results 


模型 及 特征 向 量 情感 2 分 类 情感 5 分 类 
模型 特征 准确 率 /% 召回 率 /%F1 值 准确 率 召回 率 Fl 值 
Fw ® Fpos 87.67 86.34 87.0 77.68 76.25 76.96 
Fy@BFros@Fy 87.78 87.12 87.45 77.9 76.47 77.18 
Fr@Fps BF 88.1 87.71 87.90 77.43 76.63 77.03 
ATT-BiLSTM-CNN Fv@Fpos@Fys 88.91 88.23 88.57 79.49 78.82 79.15 
Fv@BFpos@Fya 87.82 87.24 87.53 78.67 77.29 77.97 

Fw @ Fpos ® Foy 

89.76 88.51 89.13 80.26 79.76 80.0 


Foe 


维吾尔 语 中 兼 类 词 和 未 登录 词 数 量 较 多 ， 在 文本 中 出 现 


次 数 的 频繁 率 也 高 ， 传 统统 计 方法 和 规则 方法 无 法 完全 解决 


这 些 难题 。 


壁 如 ;Wy hisb”( 未 经 他 人 人 允许 不 要 


1 了 明显 的 提升 ， 
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拿 ; 


行 音 


节 切 分 后 得 到 两 个 音节 “+ J6=We*”， 其 中 “Ww 是 句子 中 


的 表 


达 否 定 意义 的 否定 后 级 ， 并 出 现在 句 末 位 置 。 在 实验 过 程 中 
发 现 ， 传 统统 计 模 型 对 这 人 句 话 的 分 类 结果 是 中 性 ， 而 本 文 提 
音节 向 量 和 位 置 向 量 后 句子 情 


维度 等 
了 缓解 过 拟 合 ， 使 用 
dropout 的 值 选 为 0.5， 在 本 次 实验 中 dropout 的 值 范 国 
[0.2, 0.3, 0.4, 0.5, 0.6, 0.7] 进 行 实验 ， 


出 的 混合 模型 使 
感 正确 分 类 为 生气 类 。 

4.3 网 络 参 数 对 情感 分 类 的 影响 
本 组 实验 中 观察 优化 函数 、dropout、 和 迭代 次 数 、 词 
E 要 网 络 参数 对 情感 分 类 的 影响 。 首 先 ， 本 文 模 


区 


多 


对 


Lx 


] 词 性 问 量 、 


向 量 
型 为 


dropout 方法 进行 正则 化 ， 通 常情 


其 实验 结果 如 图 3 所 


实验 结 


量 的 维 


度 观 察 


其 对 分 类 效果 的 影响 ， 当 维度 为 


由 


6 所 示 。 


0.2 0.3 0.4 0.5 0.6 7 


图 3 dropout 参数 实验 结果 


Fig.3 Dropout parameter experiment result 


PE 


一 


RMSprop SGD adadelta 


-一 情 感 二 分 类 全 一 情 感 五 分 类 


Adam 


图 4 优化 函数 实验 结果 


Fig.4 Optimization function experiment result 


zi 2 34563789 和 入 志 要 示 丁 析 地 殷殷 20 222 


一 一 情感 二 分 类 ”一 一 情感 五 分 类 


图 5 优化 函数 实验 结果 


Fig.5 Experimental results of training epoches 


况 
示 。 


次 ， 分 别 选取 RMSprop、SGD、adadelta、Adam 作为 优化 
数 观 察 每 个 优化 函数 对 情感 分 类 的 影响 ， 当 优化 函数 
Adam 函数 时 ， 模 型 达到 了 最 好 的 分 类 效果 ， 划 
4 所 示 。 然 后 ， 对 模型 训练 迭代 次 数 进行 实验 ， 当 友 
数 为 19 


果 如 
代 次 


时 达到 了 最 好 的 分 类 效果 , 其 结果 如 图 5 所 示 。 最 后 
| 词 向 量 的 维度 进行 实验 ， 本 文选 取 100、200、300、 
作为 词 向 
达到 了 最 好 的 分 类 效果 ， 如 图 


400 
300 


录用 定稿 买 买 提 阿 依 甫 ， 


100 200 300 400 


-号 情感 二 分 类 ”二 情感 五 分 类 


图 6 优化 函数 实验 结果 


Fig.6 Experimental results of word vector dimensions 
5 ”结束 语 


本 文 针 对 维吾尔 文 情 感 分 类 任务 ， 提 出 了 一 种 多 特征 与 
带 注意 力 机 制 的 深度 学 习 方 法 融合 的 混合 模型 。 首 先 将 词性 
特征 、 音 节 特 征 和 位 置 特征 向 量 作为 词 向 量 的 补充 ， 有 效 地 
将 维吾尔 文句 子 映射 到 低 维 抽象 特征 使 用 拼接 生成 
的 混合 向 量 挖掘 单词 本 身 固有 的 特性 ; 然后 通过 BiLSTM 网 
络 对 文本 进行 编码 ， 获 取 了 文本 历史 上 下 文 依赖 信息 ; 随后 
通过 注意 力 机 制 更 加 关注 文本 中 的 带 情感 信息 的 词语 ， 并 将 
情感 词 向 量 与 注意 力 层 的 输出 的 隐藏 状态 向 量 的 拼接 向 量 作 
为 CNN 网 络 的 输入 ， 从 而 获取 了 文本 带 有 情感 信息 的 局 部 
言 息 ;， 最 后 使 用 softimax 函数 得 到 了 情感 分 类 结果 。 实 验 结 
果 表 明 ， 本 文 提出 的 混合 模型 在 维吾尔 文 情感 二 分 类 和 五 分 
类 任务 的 准确 率 、 召 回 率 和 Fl 值 上 要 明显 高 于 传统 机 器 学 
习 方法 和 简单 深度 学 习 方 法 ,本 文 模型 的 有 效 性 得 到 了 验证 。 
在 今后 的 工作 中 , 本 文 将 本 文 模型 应 用 到 其 他 NLP 任务 中 评 
估 其 效果 ， 并 进一步 对 其 网 络 参数 进行 优化 和 改进 。 
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